home *** CD-ROM | disk | FTP | other *** search
/ Collection of Internet / Collection of Internet.iso / infosrvr / dev / www_talk.930 / 000664_timbl@www3.cern.ch _Wed Feb 24 12:29:06 1993.msg < prev    next >
Internet Message Format  |  1994-01-24  |  4KB

  1. Return-Path: <timbl@www3.cern.ch>
  2. Received: from dxmint.cern.ch by  nxoc01.cern.ch  (NeXT-1.0 (From Sendmail 5.52)/NeXT-2.0)
  3.     id AA12148; Wed, 24 Feb 93 12:29:06 MET
  4. Received: from www3.cern.ch by dxmint.cern.ch (5.65/DEC-Ultrix/4.3)
  5.     id AA29670; Wed, 24 Feb 1993 12:46:17 +0100
  6. Received: by www3.cern.ch (NX5.67c/NX3.0S)
  7.     id AA04763; Wed, 24 Feb 93 12:41:52 +0100
  8. Date: Wed, 24 Feb 93 12:41:52 +0100
  9. From: Tim Berners-Lee <timbl@www3.cern.ch>
  10. Message-Id: <9302241141.AA04763@www3.cern.ch>
  11. Received: by NeXT.Mailer (1.87.1)
  12. Received: by NeXT Mailer (1.87.1)
  13. To: marca@ncsa.uiuc.edu (Marc Andreessen)
  14. Subject: Logging user access. Was: a question...
  15. Cc: www-talk@nxoc01.cern.ch
  16. Reply-To: timbl@nxoc01.cern.ch
  17.  
  18.  
  19.  
  20. Logging user access is something which we definitely want ..for a  
  21. number of reasons
  22.  
  23.     -  Justifying the project by showing statistics
  24.     -  Demonstrating the readership profiles of 
  25.  
  26.         different material
  27.     -  Demonstrating the usage profile across sites
  28.     
  29. The privacy issue is very important, and so I had intended to
  30. log each action "A read B" as "A read something" and "B was read"
  31. independently.  This would give the basic profiles.  Anything futher  
  32. would be an infringement of privacy, so yes that the user would
  33. have to agree to it. The problem is, then the sociological data would  
  34. be immediatly filtered ... all the alt.sex.bondage readers would
  35. filter themselves out!  Perhaps two levels are needed.
  36.  
  37. The network load is also something which I considered a possible  
  38. problem, so I decided on a scheme (have I said this before?) in which
  39. an event was logged with probability p=exp(-a*t) and the probability
  40. p is included in the message so that the message can be given weight  
  41. 1/p in the analysis. The time t with which p decays is from  
  42. compilation of the source, so you get more fine-grained
  43. info on the new releases.
  44. The messages would be UDP packets so as not to clog gateways.
  45.  
  46. We have a monitoring service here which is already monitoring the use  
  47. of other CERN software -- I am not sure whether it is tcp or udp  
  48. based.  
  49.  
  50.  
  51. *Coincidence:*  As I write the file system on our server has JUST  
  52. filled up in attempting to process server January's log data....
  53. is this a warning?!
  54.  
  55. BTW: Marc, you were going to log how LONG an article was read for.
  56. I think that is very tricky... if you can come up with a good measure
  57. of how much the person LIKED the article (automatically) then you
  58. will really have something.  Someone whose name I forget in Stockholm
  59. just gave a talk about inferrding document affinities from readership  
  60. profiles... using the user  as a more refined text comparison program
  61. than a work occurence engine.  I suggested WWW usage data as source,
  62. but realized that for example of all the talk I had just given with
  63. XMosaic, the document which was left on the screen for the longest  
  64. time was quite irrelevant.
  65.  
  66. Something linked with this is finding relevant material for
  67. a particular person.  How about a service which takes someone's
  68. global history file and tells them all that's new in the world
  69. which would interest them?  In other words, if you do keep
  70. data about a particular person, then that can help them find more  
  71. data like it.... a sophisticated form of relevance feedback.
  72.  
  73.  
  74.  - - -
  75.  
  76.  
  77. I think that as you are collecting data from the public, then the
  78. data should also be made available to the public, with names and
  79. addresses removed.
  80.  
  81. Another possibility is that all servers keep logs and share the
  82. results... but it will always be incomplete.
  83.  
  84.  
  85. Tim